Improving Audio Spectrogram Transformers for Sound Event Detection Through Multi-Stage Training
https://arxiv.org/abs/2408.00791
目的はなんだっけ
モデルと手法の把握
学習手法は後回しにする予定だったが
決定は後でいいとして
把握は今やった方が良いだろう
今何が知りたいんだっけ?
情報を集める中で目的がしっかり決まっていないから頭がぐちゃぐちゃになる
適宜整理しながら見ていくのが良いか
結局どういう構造になっているのかよくわかっていない
事前学習済みTraonsformerの利用と調整をしている
調整はAudioSetを使用
強ラベルでの学習をATSTとPaSSTに適用
特に後者はクリップ単位からフレーム単位の予測にするために必要
使用モデルは以下
ATST/PaSST/BEATs
CNN/GRU
アーキテクチャはベースラインの拡張
元のモデルにATSTとPaSSTを追加
? 各モデルの役割はベースラインを見ないと分からなそう
DCASE 2024 Task 4: Sound Event Detection with Heterogeneous Data and Missing Labels
こちらを参照
https://gyazo.com/1bb03f15bf025b22a43f5a5cfd01b9b9
学習は二段階に分けて行う
詳細はFine-Tune the Pretrained ATST Model for Sound Event Detectionを参照
擬似ラベルを使って反復的に学習し,精度が向上することは次の論文で示されている
Pre-training and selftraining for sound event detection in domestic environments
Semi-supervsied Learning-based Sound Event Detection using Freuqency Dynamic Convolution with Large Kernel Attention for DCASE Challenge 2023 Task 4
第一段階: 事前学習済みモデル3種のアンサンブルで高品質な擬似ラベルを生成
第二段階: 擬似ラベルを使って学習
https://gyazo.com/150ebca21b9e9be8c51015679b2a31de